第108期丨网络爬虫技术刑法规制研究
欢迎光临 论文精选 栏目
精选优质论文,集萃法官智慧,立足司法实践,繁荣应用法学。
编者按
在大数据时代背景下,利用网络爬虫抓取公开数据是常见的方式之一,不断涌现的与网络爬虫相关的诉讼纠纷引发热议。中立、合法的技术被非正当、恶意使用时,就会对网络数据的安全造成影响。若要中立技术持续良好发展,必然需要有效引导,要让“使用者”清晰界限,因此,在司法实践中明确入罪标准和入罪路径是亟需解决的问题。
网络爬虫技术刑法规制研究
作者简介
范楠楠 法律硕士,上海市宝山区人民法院刑事审判庭法官助理。
互联网时代,数据就是核心竞争力,数据作为新的生产要素,对市场走向判断、交易行为调控等方面发挥着重要作用。在大数据时代背景下,利用网络爬虫抓取公开数据是常见的方式之一,不断涌现的与网络爬虫相关的诉讼纠纷引发了学界和司法实践中的热议。事实上,爬虫行为作为一项新兴的互联网技术是在不断发展成熟的,其本身并不违法,大多数信息类网站的基础技术就是爬虫程序,比如百度、搜狗等大型搜索引擎就是通过网络爬虫,定时在网站搜索并向用户提供需要的网页信息。然而,中立、合法的技术被非正当、恶意使用时,就会对网络数据的安全造成影响,会侵犯到知识产权造成不正当竞争,甚至侵犯公民个人信息,破坏计算机信息系统,触犯法律,引发犯罪。数字经济时代,流动的数据倡导共享,但数据的权利化和分享性本身就是并存的冲突理念,若要中立技术持续良好的发展,必然需要有效引导,要让“使用者”清晰界限,因此在司法实践中明确入罪标准和入罪路径是亟需解决的问题。
一、网络爬虫技术概述
(一)网络爬虫的概念与功能
网络爬虫(Web Crawler),也被称为网络蜘蛛、蜘蛛爬虫(Web Spider)或网络机器人(Web Robot),是按照一定的规则,自动在网络中抓取数据的程序与脚本。该项技术最早用于搜索引擎,随着数据和互联网爆炸式的发展,网络爬虫的应用场景和范围不断扩大,从我们日常浏览的新闻平台的内容汇总,到网页、APP平台中数据、价格的对比都离不开网络爬虫。
共享是互联网最主要的特点之一,网络爬虫技术大大减少了共享成本。网络爬虫的使用者若善意、合法的抓取数据,可以给网站带来流量,也能够给使用者带来收益,符合被抓取者预期的“共赢”局面。网络数据有别于传统的有形资产,在互联网领域中的数据是目前商业竞争的主要内容之一,因此网络爬虫产业迅猛发展,吸引了不少的公司和个人从事该行业,但同时也给互联网经济的发展带来了挑战。
(二)网络爬虫的运行原理和分类
网络爬虫是可以自动提取网页的程序,根据其设定好的机制和算法,一步步进行“筛选--过滤--采用”。不同的搜索引擎具有不同的“爬取机制”和“爬虫机器人”,二者决定着爬取数据的效率和质量,直接影响着用户的体验。简单来讲,网络爬虫运行过程中一般会选取一个网页地址作为集合根,在根网页的基础上不断抓取新的网址,将网址的种子(URL:统一资源定位系统“uniform resource locator”,URL是因特网的万维网服务程序上用于指定信息位置的表示方法)排队下载,从中获取相应数据,存储在集合根网址中,反复操作至满足设定条件为止。
网络爬虫可以分为通用网络爬虫、聚焦网络爬虫和增量式网络爬虫。1、通用网络爬虫的特点是爬行范围和数量大,作用是为用户站点搜索引擎采集数据,相对刷新时间长;2、聚焦网络爬虫的特点是可以优先爬行设定的相关网页,且有选择性的爬行关联的网页;3、增量式网络爬虫的特点是在爬取网页基础上进行实时更新,减少无用下载。
(三)爬虫协议与技术保障措施
与网络爬虫密不可分的另一个概念就是爬虫协议(Robots协议),全称为“网络爬虫排除标准”,Robots协议也叫Robots.txt,是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。该协议虽然是国际公认的标准,但其本身尚不具备法律强制力。
对于网络爬虫爬取的网站数据主要分为两种情形,一部分数据是网站本身就接受被合法爬取的,主要原因在于该类数据被爬取的同时可以给网站本身带来流量和收益;另一部分数据是网站不接受爬取的,这时网站往往会采取一些反爬虫措施来防止网页信息和数据被爬取,这些反爬虫措施即为“技术保障措施”。一般常见的措施有设置网页访问口令、设置JS脚本(例如我们常见的数字加减验证、拼图滑动验证等)。采用技术保障措施后的网站中的数据,正常情况下网络爬虫是无法爬取的,对于本身加密的数据即使被爬取,不进行密码破解也无法使用。爬虫协议与技术保障措施能够部分有效的保护网站的数据权利。
二、网络爬虫行为从民事违法到刑事犯罪的递进演变
“谷米公司诉元光公司案”“北京字节跳动公司诉上海晟品网络科技有限公司案”两起案件,是研究网络爬虫法律规制的经典案例。第一起案件主要展现网络爬虫是如何从中立技术转变为民事违法的,第二起案件主要说明网络爬虫从民事违法到刑事违法到司法认定过程。
(一)“谷米公司诉元光公司案”
2015年11月左右,元光公司为提高其开发的智能公交APP“车来了”在中国市场的用户量及信息查询的准确度,保证公司更好的经营,公司员工利用网络爬虫软件获取包括谷米公司在内的竞争对手公司服务器里的公交车行驶信息、到站时间等实时数据。据查,元光公司爬取谷米公司开发的智能公交APP“酷米客”的实时数据日均300万至400万条。广东省深圳市中级法院经审理后判决,被告元光公司于向原告谷米公司赔偿经济损失及合理维权费用50万元。案件中的相关人员被法院以非法获取计算机信息系统数据罪分别判处刑罚。
以此案为参照,我们在结合“百度诉奇虎360案”和“大众点评诉百度案”对比分析,发现虽然这三起案件最终均以“不正当竞争”为判决结果,但对爬虫这一行为认定和构成不正竞争的认定过程却有不同。“百度诉奇虎360案”中,法院判决的逻辑基础是相关行为是否违反已经存在的网络公约;“大众点评诉百度案”中,法院对爬虫协议做了区分,以爬取数据后的使用行为进行认定。而“谷米公司诉元光公司案”一案与上述两起案件均有不同,法院的判决书中未提及Robots协议,对于元光公司在爬取过程中的破解涉密行为也未过多阐述,而是把判断标准转向是否涉及知识产权保护领域的产品。通过分析可以看出,目前司法实践中对于网络爬虫涉及的民事纠纷并未形成统一的认定标准,当然其中也有个案案情不同的因素。
笔者认为,对于爬取数据是否构成不正当竞争要遵循的原则包括但不限于以下三点:1、爬取行为不能违反Robots协议;2、爬取数据过程中,不能突破原数据所有者采取的技术保障措施;3、爬取行为不能对原数据所有者生产、运行、经营上造成影响。
“谷米公司诉元光公司案”对于网络爬虫的行为规范上起到了一定的推动作用,对于已经具有权利保护的数据,在未经授权许可情况下的爬取行为,明确了民事违法性,同时对于“大数据不构成作品时,持有者通常会选择不正当竞争来制止他人的未经许可使用行为”。
(二)“北京字节跳动公司诉上海晟品网络科技有限公司案”
被告单位上海晟品网络公司的法定代表人张某禹等被告人经共谋,于2016年至2017年间采用技术手段抓取被害单位北京字节跳动网络技术有限公司服务器中存储的视频数据,并由侯某强指使被告人郭某破解北京字节跳动网络技术有限公司的防抓取措施,使用“tt_spider”文件实施视频数据抓取行为,造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2万元。经审理,法院以非法获取计算机信息系统数据罪判处被告单位罚金、被告人徒刑刑罚。
虽然“谷米公司诉元光公司案”中,对于实施爬虫的行为人也进行了刑事处罚,但其影响力和意义远不及本案。该起案件中,被告人使用了“tt_spider”文件进行抓取行为,“tt_spider”文件中包含通过头条号视频列表、分类视频列表、相关视频及评论3个接口对今日头条服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制。法官明确了爬虫技术作为一项搜索引擎常用技术,“有效使用有利于数据的共享和分析,造就了互联网生态的繁荣,但并不意味该技术的使用没有边界”。
“北京字节跳动公司诉上海晟品网络有限公司案”对于网络爬虫行为刑事违法性的认定,主要涉及以下三个问题:1、网络爬虫行为的使用边界;2、网络爬虫获取数据是否属于非法获取计算机信息系统数据罪中“侵入”行为;3、网络公开信息是否属于非法获取计算机信息系统数据罪的犯罪对象。笔者认为,本案中被告单位和被告人爬取数据的行为,一是规避、破解了被害单位采取的技术保障措施,已经超过了合法的使用边界,二是未经许可进入了被害单位的计算机系统,属于“侵入”行为,三是被害单位的公开信息并非共享数据,据此认定案件中的爬虫行为具有刑事违法性,侵犯了被害单位计算机信息系统和数据的保密性法益,依法应当追究刑事责任。
(三)民事违法与刑事犯罪的界限
民刑交叉问题一直是法律理论和实践中的热议话题,如民事欺诈和刑事诈骗一般,因为刑法的谦抑性使二者在大部分时候可以清晰区分。探究网络爬虫的刑法规制,自然也无法回避此问题。
自网络爬虫的法律问题凸显后,相关案件无论是民事中不正当竞争案件,亦或是刑事上的违法犯罪,数量上都在不断增加,法律本身的滞后性使其必然无法紧跟社会快速发展的脚步。上述两起典型案例让我们清楚的看到,随着商业模式和市场的发展,原本作为中立技术的网络爬虫,是如何步入民事违法后再进入刑法领域。好的技术需要以有效的制度进行引导,审慎入刑才能给予新兴技术发展空间。因此网络爬虫行为的民刑界限问题,俨然转变成网络爬虫入罪范围研究和犯罪边界界定。
三、网络爬虫的刑罚规制
(一)爬虫行为涉及的相关刑法罪名
爬虫技术的刑事违法性主要从爬虫技术本身的运作过程以及数据的后续使用来分析。下面笔者从各个环节进行讨论网络爬虫可能涉及的相关刑法罪名:
1.侵入行为。侵入行为在世界各国的刑事立法中,都被列入严格的管控当中,不同国家的表述虽有不同,但较为统一的表示了 “未经授权禁止进入”的意思。爬虫软件侵入计算机系统即可能涉及刑事违法。若违反国家规定,利用爬虫技术侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统,则可能构成《刑法》第二百八十五规定的非法侵入计算机信息系统罪。
2.控制行为。利用爬虫技术侵入除国家事务、国防建设、尖端科学技术领域以外的计算机信息系统,控制该计算机信息系统,可能构成《刑法》第二百八十五条第二款规定的非法控制计算机信息系统罪。
3.破坏行为。爬虫技术的运用可能对计算机系统功能造成一定破坏。若违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,或者对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,可能构成《刑法》第二百八十六条规定的破坏计算机信息系统罪。
4.获取行为。利用爬虫技术窃取国家秘密的,可能构成《刑法》第二百八十二条规定的非法获取国家秘密罪;利用爬虫技术侵入除国家事务、国防建设、尖端科学技术领域以外的计算机信息系统,获取该计算机信息系统中存储、处理或者传输的数据,可能构成《刑法》第二百八十五条第二款规定的非法获取计算机信息系统数据罪;利用爬虫技术非法窃取、获取公民个人信息的,可能构成《刑法》第二百五十三条之一规定的侵犯公民个人信息罪;非法获取商业秘密的,可能构成《刑法》第二百一十九条规定的侵犯商业秘密罪。
5.获取数据的后续行为。对利用爬虫技术获得的数据进行传播、提供等行为也会触犯刑法边界。根据数据性质不同,所涉及的罪名也不同,可能涉及传播淫秽物品罪、传播淫秽物品牟利罪、非法经营罪、侵犯公民个人信息罪、侵犯商业秘密罪、侵犯著作权罪、诈骗罪等。例如上海市宝山区人民法院审理的一起利用网络爬虫实施的诈骗案件,案件中被告人雇佣他人使用购买的爬虫软件获取淘宝网新开店店家信息,冒充淘宝客服人员向店家发送店铺未激活、交易关闭等虚假信息,以帮助店家解决问题为由,诱骗被害人同意其进行远程协助并提供支付宝账户及密码,后其通过电脑远程操作的方式,骗取被害人钱款。
(二)非法获取计算机信息系统数据罪与侵犯公民个人信息罪
网络爬虫根据行为侵犯的法益不同,可能面临着不同的刑事风险。司法实践中,最为常见两类即为非法获取计算机信息系统数据案件和侵犯公民个人信息案件。
“北京字节跳动公司诉上海晟品网络科技有限公司案”被“互联网大会”列为全国首例利用爬虫侵入计算机系统抓取数据案件,法院以“非法获取计算机信息系统数据罪”对被告人定罪处罚。上文中笔者已经明确分析了网络爬虫构成“非法获取计算机信息系统数据罪”的三个核心问题,入罪的逻辑首先要看网络爬虫的爬取行为是否被允许,即是否获得合法授权;其次要看爬取行为是否属于“非法获取计算机信息系统数据罪”中的“侵入行为”;最后要看犯罪对象,该罪的犯罪对象按照刑法规定是计算机信息系统中存储、处理和传输的数据。
在实践案例中,也常遇到两个罪名的罪数问题。行为人若利用爬虫爬取公民个人信息,这个犯罪过程不仅获取了公民个人信息,也侵入了被害单位的计算机信息系统,笔者认为在此类情形下,爬取公民个人信息和非法获取计算机系统数据系非重复的同性质行为,而爬取的信息和获取的数据大部分也有交叉,因此,在行为人的爬取行为均构成上述两个罪名的情况下,属于法条竞合,应按照刑法的原则择一重罪处罚。
(三)“以其他方法非法获取公民个人信息”之“非法”性判断
网络爬虫涉及最多的刑事案由是侵犯公民个人信息罪,我国刑法第二百五十三条之一以列举的方式,明确了“向他人出售或者提供公民个人信息,情节严重的”、“违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的”和“窃取”三种方式为侵犯公民个人信息罪禁止的行为,但其中第三款的兜底表述为“或以其他方法获取公民个人信息的”。显而易见,网络爬虫行为是否构成侵犯公民个人信息罪,主要看其是否属于“以其他方法获取公民个人信息”。
网络爬虫在面对侵犯公民个人信息罪的兜底条款“其他方法”时,是否在刑事上违法,核心问题在于如何认定爬虫行为的违法性,即爬虫行为获取个人信息的过程是不是“非法“的。关于“非法”性的判断要从形式上和实质上同时判断。
1.形式上的判断
(1)违反前置法。刑法第二百五十三条之一的条文表述中,前提是“违反国家规定”,这里的“国家规定”即为前置法。所以网络爬虫爬取信息的行为,只有在“违反国家规定”的情形下,才有可能构罪。
“国家规定”根据《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第二条的规定,是指“法律、行政法规、部门规章有关公民个人信息保护的规定”。对于侵犯公民个人信息罪保护的客体“公民的个人信息”而言,其最主要的前置法应为《个人信息保护法》(2021年11月1日),作为前置法的”国家规定”包括:《关于加强网络信息保护的决定》(2012年12月28)、《电信和互联网用户个人信息保护规定》(2013年7月16日)、《网络安全法》(2016年11月7日)、《信息安全技术个人信息安全规范》(2017年12月29日)等。上述决定、规定中均不同程度的对个人信息或其他网络数据安全作出了原则上和详细的规定,若行为人利用网络爬虫爬取数据,违反了相关的前置法,即可以认定该爬虫行为具有非法性,将可能构成刑事犯罪。
(2)违反行业规则。在网络中利用爬虫抓取数据就应当遵守网络行业规则,这个规则笔者在上文中已经阐明,即Robots协议(网络爬虫排除标准)。网站所有者根据Robots协议,在自己的网站根目录中会设置文本文件,主要对网站中数据是否可以被爬取予以指明,这样爬虫在爬取数据时就不会触及网站想要保护的数据。“在遵循Robots协议的前提下,公开爬取数据的行为既不会侵犯信息提供者的权利,也不会构成不正当竞争。反之,如果违反Robots协议,强行爬取他人的数据,则可能被认定为违反诚实信用和商业道德,构成不正当竞争”。正当、合法的爬虫行为在爬取数据的同时给网站所有者带来曝光率和流量,这个对于网站来说是被允许甚至是欢迎的,但若是无视Robots协议,爬取网站深处不被允许的数据,就可能涉及网站的商业秘密或个人信息。这样恶意的爬虫行为往往采用规避、破解的方式进行数据爬取,或者对于部分已经爬取的加密数据在抓取后,再进行破解使用。
虽然Robots协议在法律上尚不具备强制力,但爬虫行为违反Robots协议爬取数据的过程,往往伴随着对网站已经采取的技术保护措施进行突破。因此笔者认为,对于“以爬取方式获取公民个人信息”,首先要看爬取数据的过程有无突破网站的技术壁垒,其次判断爬取中的突破行为是否违反Robots协议,从而确定行为的“非法性”。
2.实质性判断
以网络爬虫的方式侵犯公民个人信息的入罪判断,不仅要从形式上看是否符合构成要件,也要在实质上判断行为侵害的法益是否应当受到刑罚。形式上的判断主要针对爬虫行为的合法性和正当性,而实质上的判断主要看是否具有“正当化阻却事由”。
(1)权限许可范围内使用。爬虫行为人若是在权限许可范围内爬取数据,则不具有“非法性”,不能认定为刑事犯罪。“爬虫”二字以抓取数据的过程形象化描述而得,其实我们每天都在接触网络爬虫,例如我们在百度等搜索网站内的查询,就是在对公开数据的爬取,通常是不会被认定为侵权或者违法的,这个就是最为常见的“权限许可范围内的数据爬取”。
(2)“公民个人信息”的界定。关于“公民个人信息”,根据《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第一条,明确规定了我国刑法第二百五十三条之一规定的“公民个人信息”是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。司法解释第三条,明确规定了未经被收集者同意,将合法收集的公民个人信息向他人提供的,属于刑法第二百五十三条规定的提供公民个人信息,但是经过处理无法识别特定个人且不能复原的除外。根据上面两条司法解释的条款,我们可以清晰找到其中的关键词:“识别”、“反映特定自然人”,所以在司法实践当中,我们对于网络爬虫爬取的相关公民个人信息直接比照“是否可以识别特定自然人身份或反映特定自然人活动情况”的标准即可判断。
因此,在可能涉及“侵犯公民个人信息罪”的爬虫行为中,“权限许可范围内使用”或爬取的数据非“公民个人信息”两种情况,均不能以“侵犯公民个人信息罪”定罪处罚。对于利用爬虫侵犯个人信息的行为,要在形式上判断犯罪构成要件的基础上,实质上判断有无阻却事由。
结语
世界的本质是数据,数据对于飞速发展的经济时代意义重大,利用网络爬虫进行数据抓取的法律研究,可以为爬虫技术和数字经济的发展营造良好环境。法律不禁止技术创新,但网络爬虫作为一种新兴中立技术,不能逾越法律的边界,不然就要面对民事违法或刑事犯罪的风险。网络爬虫只是浩瀚的互联网世界中的一个缩影,针对不断新兴的互联网技术、行为,在刑事角度上要做到严谨认定、审慎入罪,在保证其合理生长的前提下,以预防为主要目的,但若不法分子利用技术作出违法行为必然要受到应有的惩处。同时,技术的发展总是一个不断试错、经验积累的过程,法律的发展也是一个及时引导、填补空白的过程,发现问题解决问题,保护公民合法权益,维护网络运行安全,共同营造良好的互联网发展环境。
特约编辑:潘庸鲁
责任编辑:李瑞霞
执行编辑:吴涛 万丰恺
⏩ 转载请标明本公号和二维码 ⏪
推荐阅读